136 research outputs found

    Fault tolerance at system level based on RADIC architecture

    Get PDF
    The increasing failure rate in High Performance Computing encourages the investigation of fault tolerance mechanisms to guarantee the execution of an application in spite of node faults. This paper presents an automatic and scalable fault tolerant model designed to be transparent for applications and for message passing libraries. The model consists of detecting failures in the communication socket caused by a faulty node. In those cases, the affected processes are recovered in a healthy node and the connections are reestablished without losing data. The Redundant Array of Distributed Independent Controllers architecture proposes a decentralized model for all the tasks required in a fault tolerance system: protection, detection, recovery and masking. Decentralized algorithms allow the application to scale, which is a key property for current HPC system. Three different rollback recovery protocols are defined and discussed with the aim of offering alternatives to reduce overhead when multicore systems are used. A prototype has been implemented to carry out an exhaustive experimental evaluation through Master/Worker and Single Program Multiple Data execution models. Multiple workloads and an increasing number of processes have been taken into account to compare the above mentioned protocols. The executions take place in two multicore Linux clusters with different socket communications libraries

    Compensación ejecutiva y su aplicación a una empresa de consultoría

    Get PDF
    Este trabajo busca determinar un sistema de compensación ejecutiva mediante un diagnóstico realizado a la empresa de ingeniería Consultoría Colombiana -- Se estudian conceptos de la teoría de la agencia y su influencia en el Gobierno Corporativo, de manera que estén alineados todos los intereses, tanto de los accionistas como de los directores -- Para ello, se recolectará la información financiera y las percepciones de los accionistas y directores frente a la compensación ejecutiva, y de qué manera se genera o destruye valor -- No obstante, para tener claro cómo definir la compensación ejecutiva en la empresa se deben determinar e implantar algunos conceptos como: de qué manera está desarrollada la compensación ejecutiva, identificar los problemas de agencia y sus posibles soluciones para mitigar el riesgo de incentivos perversos, y cómo evalúa, el Gobierno Corporativo, los incentivos que se le proporcionan a los directores de proyecto -- Finalmente, mediante los resultados obtenidos por la investigación, se entregará un diagnóstico a la empresa de ingeniería y se propondrá un esquema de compensación basado en un modelo de regresión lineal que alinee los intereses de los directores con el desempeño financiero de la empresaThis work seeks to determine an adequate executive compensation system through a diagnosis made to Consultoría Colombiana S.A an engineering company -- We study the concepts of agency theory and the influence on a corporative goverment are studied so most of the interests of both shareholders and directors are aligned -- For this purpose, financial information and perceptions of shareholders and directors will be collected with respect to executive compensation and how it is currently generating or destroying value -- However, to be clear about how to define executive compensation in the company, certain concepts must be determined and implemented, such as: How executive compensation is developed, identify agency problems and possible solutions to mitigate the risk of perverse incentives, like in which way corporative goverment evaluates the incentives that are provided to Project directors -- Finally, through the results obtained by the investigation, a diagnosis will be delivered to the engineering company and a compensation scheme based on a linear regression model that aligns the interests of directors with the financial performance of the company is propose

    H-RADIC: una solución de tolerancia a fallos para clústeres virtuales en ambientes multi-nube

    Get PDF
    Even though the cloud platform promises to be reliable, several availability incidents prove that it is not. How can we be sure that a parallel application finishes it´s execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes parallel applications protected by RADIC in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiment´s results using 3 clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that by adding a cluster protector it will be possible to implement the next level in the hierarchy, where the first level in the RADIC hierarchy works as an observer at a site level. In adition, the experiments showed that the protection implementation is out of the critical path of the application and it depends on the utilized resources.Aunque las plataformas en la nube parecen ser muy confiables, varios incidentes de disponibilidad han podemos asegurarnos que una aplicación paralela termina su ejecución cuando el sitio en la nube ha sido afectado por una falla? Este articulo presenta HRADIC, un enfoque basado en la arquitectura RADIC, esta ejecuta aplicaciones paralelas en al menos 3 diferentes sitios o clústeres virtuales, todos protegidos por RADIC, donde el estado de la ejecución de cada sitio es guardado periódicamente en otro de los sitios y de ahí es recuperado en el caso de una falla. El articulo detalla la configuración de la arquitectura y los resultados de los experimentos usando 3 clústeres ejecutando aplicaciones NAS en paralelo, protegidas con DMTCP (una herramienta para realizar múltiples checkpoints). Nuestros experimentos muestran que al agregar un protector del clúster es posible implementar un nivel más en la jerarquía de RADIC, donde el primer nivel funciona como observador. Los experimentos muestran que la implementación de este protector esta fuera del camino critico de la ampliación y depende solamente de la utilización de recursos.Facultad de Informátic

    H-RADIC: The Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments

    Get PDF
    Even though the cloud platform promises to be reliable, several availability incidents prove that they are not. How can we be sure that a parallel application finishes the execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes a parallel application in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiments results using 3 virtual clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that the execution time was increased between a 5% to 36% without failures and 27% to 66% in case of failures.Facultad de Informátic

    H-RADIC: una solución de tolerancia a fallos para clústeres virtuales en ambientes multi-nube

    Get PDF
    Even though the cloud platform promises to be reliable, several availability incidents prove that it is not. How can we be sure that a parallel application finishes it´s execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes parallel applications protected by RADIC in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiment´s results using 3 clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that by adding a cluster protector it will be possible to implement the next level in the hierarchy, where the first level in the RADIC hierarchy works as an observer at a site level. In adition, the experiments showed that the protection implementation is out of the critical path of the application and it depends on the utilized resources.Aunque las plataformas en la nube parecen ser muy confiables, varios incidentes de disponibilidad han podemos asegurarnos que una aplicación paralela termina su ejecución cuando el sitio en la nube ha sido afectado por una falla? Este articulo presenta HRADIC, un enfoque basado en la arquitectura RADIC, esta ejecuta aplicaciones paralelas en al menos 3 diferentes sitios o clústeres virtuales, todos protegidos por RADIC, donde el estado de la ejecución de cada sitio es guardado periódicamente en otro de los sitios y de ahí es recuperado en el caso de una falla. El articulo detalla la configuración de la arquitectura y los resultados de los experimentos usando 3 clústeres ejecutando aplicaciones NAS en paralelo, protegidas con DMTCP (una herramienta para realizar múltiples checkpoints). Nuestros experimentos muestran que al agregar un protector del clúster es posible implementar un nivel más en la jerarquía de RADIC, donde el primer nivel funciona como observador. Los experimentos muestran que la implementación de este protector esta fuera del camino critico de la ampliación y depende solamente de la utilización de recursos.Facultad de Informátic

    H-RADIC: The Fault Tolerance Framework for Virtual Clusters on Multi-Cloud Environments

    Get PDF
    Even though the cloud platform promises to be reliable, several availability incidents prove that they are not. How can we be sure that a parallel application finishes the execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes a parallel application in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiments results using 3 virtual clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that the execution time was increased between a 5% to 36% without failures and 27% to 66% in case of failures.Facultad de Informátic

    H-RADIC: una solución de tolerancia a fallos para clústeres virtuales en ambientes multi-nube

    Get PDF
    Even though the cloud platform promises to be reliable, several availability incidents prove that it is not. How can we be sure that a parallel application finishes it´s execution even if a site is affected by a failure? This paper presents H-RADIC, an approach based on RADIC architecture, that executes parallel applications protected by RADIC in at least 3 different virtual clusters or sites. The execution state of each site is saved periodically in another site and it is recovered in case of failure. The paper details the configuration of the architecture and the experiment´s results using 3 clusters running NAS parallel applications protected with DMTCP, a very well-known distributed multi-threaded checkpoint tool. Our experiments show that by adding a cluster protector it will be possible to implement the next level in the hierarchy, where the first level in the RADIC hierarchy works as an observer at a site level. In adition, the experiments showed that the protection implementation is out of the critical path of the application and it depends on the utilized resources.Aunque las plataformas en la nube parecen ser muy confiables, varios incidentes de disponibilidad han podemos asegurarnos que una aplicación paralela termina su ejecución cuando el sitio en la nube ha sido afectado por una falla? Este articulo presenta HRADIC, un enfoque basado en la arquitectura RADIC, esta ejecuta aplicaciones paralelas en al menos 3 diferentes sitios o clústeres virtuales, todos protegidos por RADIC, donde el estado de la ejecución de cada sitio es guardado periódicamente en otro de los sitios y de ahí es recuperado en el caso de una falla. El articulo detalla la configuración de la arquitectura y los resultados de los experimentos usando 3 clústeres ejecutando aplicaciones NAS en paralelo, protegidas con DMTCP (una herramienta para realizar múltiples checkpoints). Nuestros experimentos muestran que al agregar un protector del clúster es posible implementar un nivel más en la jerarquía de RADIC, donde el primer nivel funciona como observador. Los experimentos muestran que la implementación de este protector esta fuera del camino critico de la ampliación y depende solamente de la utilización de recursos.Facultad de Informátic

    Arquitectura orientada a servicios, un enfoque basado en proyectos

    Get PDF
    En este artículo se presenta el enfoque metodológico que se utiliza en la asignatura de Arquitectura Orientada a Servicios (AOS) que se imparte como obligatoria en el tercer curso del Grado de Informática y Servicios en la Escola Universitària d’Informàtica Tomàs Cerdà. AOS, es innovadora en un nivel educativo de grado, y propone, en la parte teórica de la metodología, enseñar las propiedades y características de la AOS de un modo conceptual relacionándolo con la tecnología existente. De este modo, los alumnos disponen de los criterios necesarios para valorar la oferta de productos que existen en el mercado actual, y adquieren conocimientos que van más allá de una línea de productos en concreto. En la parte práctica, se ha optado por un enfoque de aprendizaje basado en proyectos soportado por video-tutoriales, se consigue que el alumno proponga y desarrolle un proyecto basado en servicios web en tan solo una semana de uso de laboratorio. El método permite que el alumno aprenda, en forma consolidada y aplicada, los conceptos de tecnologías de servicios web SOAP, ReST y bus de servicios.In this paper we present the methodological approach we are using in Service Oriented Architecture (SOA), which is taught as a mandatory subject during the third course in Informatics and Services degree at the Escola Universitària d’Informàtica Tomàs Cerdà. This subject, innovative at grade level, proposes, in the theoretical part of its methodology, to teach the SOA properties and characteristics in a conceptual way and in relation to the current technology. As a result, the students are provided with the required elements to assess the current SOA product supply and they acquire the SOA knowledge beyond of a concrete product line. In the practical part, we choose project-based collaborative learning model supported with video-tutorial, we achieve the pupils could propose and develop a web services based project during using only a laboratory week. This method allows the students to learn in a practical way the technology concepts of SOAP, ReST, and service bus.Universidad de Granada: Departamento de Arquitectura y Tecnología de Computadores; Vicerrectorado para la Garantía de la Calidad

    Servicios y Seguridad, un enfoque basado en estrategias de ataque y defensa

    Get PDF
    En este artículo se presenta el enfoque metodológico de la asignatura Servicios y Seguridad del Grado de Informática y Servicios, título oficial de la Universidad Autónoma de Barcelona que se imparte en la Escuela Universitaria de Informática Tomás Cerdá. Proponemos un enfoque basado en estrategias de ataque y defensa utilizadas en sistemas informáticos. Los modelos de estrategia constituyen el hilo conductor que permite relacionar cómo contribuyen el resto de temas, como criptografía, estándares de seguridad, metodologías de modelado de amenazas y de evaluación de riesgos en la configuración de un sistema de servicios web seguro. La parte práctica incluye sesiones de laboratorio y el desarrollo de un trabajo de hacking. En el laboratorio los alumnos aprenden a configurar la seguridad de un servidor de aplicaciones web, a generar certificados de servidor y de clientes, y a incluir opciones de seguridad en aplicaciones y en servicios web. Realizando el trabajo práctico los alumnos aprenden a defender mejor al sistema a través del conocimiento de las técnicas y herramientas que utilizan los atacantes para descubrir y explotar las vulnerabilidades de las infraestructuras y aplicaciones.This article describes the methodological approach of the subject Services and Security of the Bachelor's Degree in Information Technology and Services (Universitat Autonoma de Barcelona), which is taught at the Tomas Cerda Computer Science School. We propose an approach based on attack and defense strategies which are used in computer systems. Strategy models are the thread that relates how the rest of the topics as cryptography, security standards, threat modeling and risk assessment methodologies contribute in setting up a secure web service based system. The practical part includes laboratory sessions and development of a work of hacking. In the laboratory students learn to set up a web server application, to generate server and client’s certificates, and to include security options into applications and web services. By doing the practical work students learn how to defend the system in a better way through the knowledge of the techniques and tools used by hackers to discover and exploit vulnerabilities of infrastructure and applications.Universidad de Granada: Departamento de Arquitectura y Tecnología de Computadores; Vicerrectorado para la Garantía de la Calidad

    Propuestas para integrar la arquitectura RADIC de forma transparente

    Get PDF
    El aumento en tamaño de los clústeres de computadores trae consigo un incremento en la tasa de fallos. En este trabajo se presentan dos propuestas de integración de la arquitectura RADIC, una a nivel de librería de comunicaciones y otra a nivel de protocolo de red, específicamente a nivel de sockets. Dado que MPI es un estándar que frente a fallos propone realizar una parada (fail-stop), RADIC se encarga de enmascarar los fallos para que la aplicación termine, para ello utiliza un controlador distribuido que protege el cómputo utilizando estrategias de rollback-recovery. Resultados iniciales demuestran RADIC puede integrarse en diferentes capas del sistema para que actúe de forma transparente, que la arquitectura propuesta escala correctamente con la aplicación y que los overheads dependen de la configuración del sistema y del comportamiento de la aplicación. Además incluyendo nodos spare para recuperar procesos fallados evita la sobrecarga en nodos de cómputo y mantiene las prestaciones similares a las iniciales.Presentado en el XI Workshop Procesamiento Distribuido y Paralelo (WPDP)Red de Universidades con Carreras en Informática (RedUNCI
    corecore